Amélioration d'un corpus de requêtes à l'aide d'une méthode non-supervisée

نویسندگان

  • Vincent Bouvier
  • Patrice Bellot
چکیده

RÉSUMÉ. Cet article présente une méthode d’amélioration d’un corpus de requêtes par regroupement des mots qui sont graphiquement similaires. L’approche utilisée est basée sur une distance d’édition normalisée et sur des propriétés statistiques distributionnelles; elle ne s’appuie sur aucune base de connaissances. Cette méthode a été développée pour résoudre un problème industriel: l’amélioration d’un corpus de libellés de produits diversement orthographiés. Le but de l’algorithme est de retrouver l’écriture la plus compréhensible pour l’humain comme pour la machine (par ex. système de requêtes).

برای دانلود متن کامل این مقاله و بیش از 32 میلیون مقاله دیگر ابتدا ثبت نام کنید

ثبت نام

اگر عضو سایت هستید لطفا وارد حساب کاربری خود شوید

منابع مشابه

Améliorer la découverte de chroniques par une découpe intelligente d'un log d'alarmes

Résumé. Cet article décrit une méthode de prétraitement destinée à faciliter la découverte de motifs fréquents dans un log d'alarmes. Au cours d'une première étape les types d'alarmes qui présentent un comportement temporel similaire sont regroupés à l'aide d'une carte auto-organisatrice. Puis on recherche les parties du log qui sont riches en alarmes pour les différents groupes. Des sous logs ...

متن کامل

Les défis posés par le Web sémantique

RÉSUMÉ. Le Web sémantique est une vision du Web de demain où l'interopérabilité entre les ressources distribuées sur le Web, aujourd'hui très hétérogènes, sera facilitée par un marquage sémantique de ces ressources à l'aide d'ontologies. Une ontologie est un vocabulaire structuré de noms de concepts et de propriétés définis précisément à l'aide d'un langage formel non ambigu. Dans la vision du ...

متن کامل

Recherche de relations spatio-temporelles

Résumé : Les travaux que nous présentons dans cet article sont réalisés dans le cadre du projet GEONTO. Nous proposons une méthode pour l'enrichissement d'une ontologie géographique à partir de l'analyse automatique d'un corpus textuel composé de récits de voyage. Il s'agit d'une méthode basée sur une approche lexico-syntaxique. En analysant le corpus de texte, nous identifions et détectons des...

متن کامل

Conception assistée d'une ontologie à partir d'une conceptualisation consensuelle exprimée de manière semi-formelle

Résumé : Cet article présente une méthodologie assistée de conception d'une ontologie à travers trois méthodes, soit une méthode d'élicitation des connaissances d'un domaine résultant en un modèle semi-formel de ces connaissances, une méthode de formalisation conduisant à la production d’une ontologie et une méthode de validation syntaxique et sémantique de l'ontologie. Les processus de formali...

متن کامل

Reservoir Sedimentation under Uncertainty: Analytic Approach versus Simulation

Two methods are presented of estimating accumulated sediment yield stemming from erosion in a semiarid climate during a given time span, and the methods are compared from the viewpoint of the economic consequences evaluated within a Bayesian framework. The design of reservoirs requires the estimation of the random sediment volume Z accumulated over the lifetime of the project. An analytic and a...

متن کامل

ذخیره در منابع من


  با ذخیره ی این منبع در منابع من، دسترسی به آن را برای استفاده های بعدی آسان تر کنید

برای دانلود متن کامل این مقاله و بیش از 32 میلیون مقاله دیگر ابتدا ثبت نام کنید

ثبت نام

اگر عضو سایت هستید لطفا وارد حساب کاربری خود شوید

عنوان ژورنال:

دوره   شماره 

صفحات  -

تاریخ انتشار 2013